第 12 屆 iThome 鐵人賽

DAY 1

0

自我挑戰組

女力媽媽的Data白話文系列第 1 篇

STEP1 : 爬蟲首要認知

12th鐵人賽

2020-09-11 16:37:56

1117 瀏覽

分享至

網路爬蟲、網頁抓取

簡單的說法就是從網頁中，抓取自己感興趣的區塊資料，進一步的清理資料，整理成可視性的圖表做解讀。

一般來說

打開一個網頁
輸入網址列
按下ENTER鍵
即可達到想瀏覽的網頁端

這樣看似一個動作，電腦的背後其實與伺服器做了無數個連線，進而呈現在瀏覽器端的完整頁面。

瀏覽器、伺服器、連線...等等，這些專有名詞聽不懂沒關係，我們換個方式來說說看。

想像成，
我們撥打了一通電話給 YAHOO!電影的公司，想知道本周的新片?
電影公司內部可能會立刻請
影像部的同仁，將本周新片的電影海報彙整後打通電話回報給您
文字編輯部的同仁，將本周新片的內容大綱彙整後打通電話回報給您
社群小編的同仁，將本周新片的網友期待度彙整後打通電話回報給您
...
匯集了各個部門的資料，
也就成了我們現在在網頁上看到的圖文並茂排版下的頁面

瀏覽器 就想成這台電腦打開的這個網頁
伺服器 就想成 YAHOO!電影 這間公司
無數個連線 就想成必須分別向 各個部門 要資料

所以一個網頁是由多個區塊資料拼湊下組合而成，若我們只想抓取某部分的資料，
我們就必須要知道，感興趣的這區塊資料是由哪個部門將資料蒐集而成的。

所以當我只想知道本周新片的網友期待度評價時，
只要找到YAHOO!電影公司的社群小編部門的電話連線，就可以得到自己感興趣的這區塊資料了。

結語

爬蟲就是從網頁中的眾多連線中，找到那一條存放著自己感興趣資料的那一條連線。

系列文

女力媽媽的Data白話文共 1 篇

目錄

RSS系列文訂閱系列文

1 人訂閱

1
STEP1 : 爬蟲首要認知

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

Fortigate DNS Filter 問題

IT邦幫忙